Language-Independent Named Entity Recognition (II)
https://www.clips.uantwerpen.be/conll2003/ner/
入手先:http://www.cnts.ua.ac.be/conll2003/ner.tgz
The training, development and test data sets for English and German as well as evaluation software for this shared task in one gzipped tar file.
https://www.clips.uantwerpen.be/conll2003/ner/000README に手順あり
BUILDING THE TRAIN AND TEST DATA FILES
bin/make.eng
This will generate the training data (either eng.train or deu.train), the development test data (eng.testa or deu.testa) and the final test data (eng.testb or deu.testb) in the ner directory.
code:手順.sh
wget http://www.cnts.ua.ac.be/conll2003/ner.tgz
tar zxf ner.tgz
cd ner
bin/make.engにはロイターのデータのCDをマウントしておく必要がある
bin/make.eng.2016にはrcv1.tar.xz(ロイターのデータ)が必要
ダウンロード手順 https://trec.nist.gov/data/reuters/reuters.html
IMO:論文の実装FreedomIntelligence/Evaluation-of-ChatGPT-on-Information-Extractionや下の例など、再配布していいの?(conll2003の扱いは?)
https://github.com/patverga/torch-ner-nlp-from-scratch/tree/e577320ee6ed7417137e5309d370d9274009cc2d/data/conll2003 コミットされたdatasetを使う方法
ref: https://github.com/sld/torch-conv-ner/issues/1